Errores ortográficos y de competencia en textos de la web en euskera
نویسندگان
چکیده
The objective of the work presented in this paper is to estimate the quality of corpora retrieved from the Basque Web. The methodology i followed is similar to that used for English and Germany by Ringlstetter et al. (2006). The main difference lies in the fact that we reuse spelling checkers for detecting errors. We think that by this way we obtain a higher error coverage and that the method can be applied to other languages with practically no manual work provided such tools are available for them. The results obtained can be useful for improving the quality of corpora obtained from the web, eliminating documents containing errors over a given threshold.
منابع مشابه
STILUS: Sistema de revisión lingüistica de textos en castellano
STILUS es el producto de tecnología lingüística de DAEDALUS S.A. para la revisión ortográfica, gramatical y de estilo de gran calidad de textos en castellano. Con STILUS se puede revisar cualquier texto, ya se trate de un documento de cualquier procesador de textos o de una página web, y obtener un informe detallado y preciso con los errores ortográficos, gramaticales y de estilo detectados. El...
متن کاملSimplificación automática de textos en euskera
En este art́ıculo presentamos el trabajo llevado a cabo dentro del proyecto de tesis doctoral llamado “Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan” (Identificación y simplificación de las estructuras sintácticas complejas en el procesamiento automático del Euskera) que se realiza bajo la dirección de las doctoras Arantza Dı́az de Ilarraza y M...
متن کاملDealing with Input Noise in Statistical Machine Translation
Misspelled words have a direct impact on the final quality obtained by Statistical Machine Translation (SMT) systems as the input becomes noisy and unpredictable. This paper presents some improvement strategies for translating real-life noisy input. The proposed strategies are based on a preprocessing step consisting in a character-based translator (MT) from noisy into cleaned text. The use of ...
متن کاملDetección del lenguaje figurativo e ironía en textos cortos
Resumen En la presente investigación se propone un modelo para resolver la Tarea 11 de la Competencia Semeval 2015. El modelo propuesto utiliza caracteŕısticas léxicas extráıdas de los textos, asi como la polaridad de las palabras obtenidas utilizando diferentes herramientas. El modelo fue validado con 1 corpus de Twitter y se compara el desempeño de dos de los algoŕıtmos más usados para clasif...
متن کاملPresentación sinóptica de textos bilingües mediante distancias de edición
Resumen Aunque la alineación de textos multilingües mediante métodos de traducción estadística consigue buenos resultados, su implementación es compleja y su fundamentación teórica es, a menudo, intrincada. En el caso de textos escritos en idiomas emparentados (por ejemplo, el latín y el castellano) hemos conseguido resultados satisfactorios usando programas muy simples basados en la distancia ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 45 شماره
صفحات -
تاریخ انتشار 2010